花費 29 ms
[Search Engine] 搜索引擎技術之網絡爬蟲

  隨着互聯網的大力發展,互聯網稱為信息的主要載體,而如何在互聯網中搜集信息是互聯網領域面臨的一大挑戰。網絡爬蟲技術是什么?其實網絡爬蟲技術就是指的網絡數據的抓取,因為在網絡中抓取數據是具有關聯性 ...

Fri Sep 04 08:33:00 CST 2015 1 5142
solr 主從模式和solrcloud集群模式

主從模式 主節點有單點故障問題:沒有主從自動切換,沒有failover,主機down掉了的話,整個數據變成只讀。並且需要一台機單獨做索引,浪費資源,所有數據都需要在這台機器上單獨存在一份,索引變化較 ...

Fri Jun 24 19:52:00 CST 2016 0 4058
多線程異步非阻塞C語言爬蟲

最近用C寫了個爬蟲,純屬練習,離實用還相差甚遠。 下載源碼:ISeeSpider bloom.h實現布隆過濾器算法。對一條url拆分為domain和path兩部分,bloomDomain函數判斷d ...

Wed Feb 15 03:32:00 CST 2012 7 5548
[Search Engine] 搜索引擎技術之倒排索引

  倒排索引是搜索引擎中最為核心的一項技術之一,可以說是搜索引擎的基石。可以說正是有了倒排索引技術,搜索引擎才能有效率的進行數據庫查找、刪除等操作。 1. 倒排索引的思想   倒排索引源於實際應用 ...

Tue Sep 08 22:35:00 CST 2015 0 4305
[Search Engine] 搜索引擎分類和基礎架構概述

  大家一定不會多搜索引擎感到陌生,搜索引擎是互聯網發展的最直接的產物,它可以幫助我們從海量的互聯網資料中找到我們查詢的內容,也是我們日常學習、工作和娛樂不可或缺的查詢工具。之前本人也是經常使用G ...

Wed Sep 02 19:34:00 CST 2015 0 4089
Lucene 對文檔打分的規則整理記錄

摘引自:http://www.cnblogs.com/forfuture1978/archive/2010/02/08/1666137.html Lucene的搜索結果默認按相關度排序,這個相 ...

Wed Jul 30 19:17:00 CST 2014 1 4167
[原創] - C#編程大幅提高OUTLOOK的郵件搜索能力!

使用OUTLOOK, 你有沒有遇到過上圖的問題? 多達18419封郵件! 太多了, 每次想找一個郵件都非常耗時, 想辦法解決這個問題成了一件非常緊迫的事情. 利用MS Search當然可以, 但是 ...

Tue Jul 30 02:44:00 CST 2013 10 2340
lucene 基本原理整理

基本原理:http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623594.html 所有過程:http://www.cnblogs.c ...

Wed Jul 16 19:16:00 CST 2014 0 2770
自己動手寫搜索引擎

radic 是我用go語言實現搜索引擎的索引部分,包括:倒排索引正排索引分布式索引 使用舉例 首先需要go get github.com/Orisun/radic 更多API參見radic. ...

Mon Aug 26 01:06:00 CST 2019 0 427

 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM